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上 节 课 我 们 主要 介绍 了 神经 网 络 Neural Network。 神 经 网 络 是 由 一 层 一 层 的 神经 元 构 
成 ， 其 作用 就 是 帮助 提取 原始 数据 中 的 模式 即 特征 ， 简 称 为 pattern feature 
extraction。 神 经 网 络 模 型 的 关键 是 计算 出 每 个 神经 元 的 权重 ， 方 法 就 是 使 用 
Backpropagation 算 法 ， 利 用 GD/SGD， 得 到 每 个 权重 的 最 优 解 。 本 节 课 我 们 将 继续 对 
神经 网 络 进行 深入 研究 ， 并 介绍 层 数 更 多 、 神 经 元 个 数 更 多 、 模 型 更 复杂 的 神经 网 络 
模型 ， 即 深度 学 习 模型 。 


Deep Neural Network 


总 的 来 说 ， 根 据 神经 网 络 模型 的 层 数 、 神 经 元 个 数 、 模 型 复杂 度 不 同 ， 大 致 可 分 为 两 
类 : Shallow Neural Networks 和 Deep Neural Networks。 上 节 课 介绍 的 神经 网 络 模型 
层 数 较 少 ， 属 于 Shallow Neural Networks， 而 本 节 课 将 着 重 介绍 Deep Neural 
Networks。 首 先 ， 比 较 一 下 二 者 之 间 的 优 缺 点 有 哪些 : 


Deep NNet 


e challenging to train (x) 
sophisticated structural 


e more efficient to train (OO) 
e Simpler structural 


decisions (OO) decisions (x) 
e theoretically powerful 。 ‘arbitrarily’ powerful (OO) 
enough (OO) 。 more ‘meaningful’? (see 


next slide) 





A 


值得 一 提 的 是 ， 近 些 年 来 ，deep learning 越 来 越 火 ， 尤 其 在 电脑 视觉 和 语音 识别 等 领 
域 都 有 非常 广泛 的 应 用 。 原 因 在 于 一 层 一 层 的 神经 网 络 有 助 于 提取 图 像 或 者 语音 的 一 
些 物 理 特 征 ， 即 pattern feature extraction， 从 而 帮助 人 们 掌握 这 些 问题 的 本 质 ， 建 立 
准确 的 模型 。 


下 面 举 个 例子 ， 来 看 一 下 深度 学 习 是 如 何 提取 出 问题 潜在 的 特征 从 而 建立 准确 的 模型 
的 。 如 下 图 所 示 ， 这 是 一 个 手写 识别 的 问题 ， 简 单 地 识别 数字 1 和 数字 5。 


positive weight 









negative weight 


如 何 进 行 准确 的 手写 识别 呢 ? 我 们 可 以 将 写 上 数字 的 图 片 分 解 提取 出 一 块 一 块 不 同 部 
位 的 特征 。 例 如 左边 三 幅 图 每 张 图 代表 了 数字 1 的 某 个 部 位 的 特征 ， 三 幅 图 片 组 合 起 来 
就 是 完整 的 数字 1。 右 边 四 幅 图 也 是 一 样 ， 每 张 图 代表 了 数字 5 的 某 个 部 位 的 特征 , 五 
幅 图 组 合 起 来 就 是 完整 的 数字 5。 对 计算 机 来 说 ， 图 片 由 许多 像素 点 组 成 。 要 达到 识别 
的 目的 ,每 层 神经 网 络 从 原始 像素 中 提取 出 更 复杂 的 特征 ， 再 由 这 些 特征 对 图 片 内 容 
进行 匹配 和 识别 。 层 数 越 多 ， 提 取 特 征 的 个 数 和 深度 就 越 大 ， 同 时 解决 复杂 问题 的 能 
量 就 越 强 ， 其 中 每 一 层 都 具有 相应 的 物理 意义 。 以 上 就 是 深度 学 习 的 作用 和 意义 。 
深度 学 习 很 强大 ， 同 时 它 也 面临 很 多 挑战 和 困难 : 

。 difficult structural decisions 

。 high model complexity 

。 hard optimization problem 


。 huge computational complexity 


面 对 以 上 深度 学 习 的 4 个 困难 ， 有 相应 的 技术 和 解决 的 办 法 : 


se difficult structural decisions: 
es。 Subjective with domain knowledge: like convolutional NNet for 
images 
。 high model complexity: 
es no big worries if big enough data 
se regularization towards noise-tolerant: like 


e dropout (tolerant when network corrupted) 
e denoising (tolerant when input corrupted) 


。 hard optimization problem: 


es careful initialization to avoid bad local minimum: 
called pre-training 


。 huge computational complexity (worsen with big data): 
se novel hardware/architecture: like mini-batch with GPU 


其 中 ， 最 关键 的 技术 就 是 regularization 和 initialization 。 


深度 学 习 中 ， 权 重 的 初始 化 选择 很 重要 ， 好 的 初始 值 能 够 帮助 避免 出 现 局 部 最 优 解 的 
出 现 。 常 用 的 方法 就 是 pre-train， 即 先 权 重 进行 初始 值 的 选择 ， 选 择 之 后 再 使 用 
backprop 算 法 训练 模型 ， 得 到 最 佳 的 权重 值 。 在 接 下 来 的 部 分 ， 我 们 将 重点 研究 pre- 
training 的 方法 。 


Simple Deep Learning 


@ for (= 1,...,L, pre-train {wo} assuming w('), ... w(“!) fixed 





@ train with backprop on pre-trained NNet to fine-tune all {wh 


Autoencoder 


我 们 已 经 介绍 了 深度 学 习 的 架构 ， 那 么 从 算法 模型 上 来 说 ， 如 何 进行 pre-training， 得 
到 较 好 的 权重 初始 值 呢 ? 首先 ， 我 们 来 看 看 ， 权 重 是 什么 ? 神经 网 络 模 型 中 ， 权 重 代 


表 了 特征 转换 (feature transform) 。 从 另 一 个 方面 也 可 以 说 ， 权 重 表示 一 种 编码 
(encoding) ， 就 是 把 数据 编码 成 男 外 一 些 数据 来 表示 。 因 为 神经 网 络 是 一 层 一 层 进 
行 的 ， 有 先后 顺序 ， 所 以 就 单一 层 来 看 ， 好 的 权重 初始 值 应 该 是 尽 可 能 地 包含 了 该 层 
输入 数据 的 所 有 特征 ， 即 类 似 于 information-preserving encoding。 也 就 是 说 ， 能 够 把 
第 i 层 的 输入 数据 的 特征 传输 到 第 i+1 层 ， 再 把 第 i+1 层 的 输入 数据 的 特征 传输 到 第 i+2 
层 ， 一 层 一 层 进 行 下 去 。 这 样 ， 每 层 的 权重 初始 值 起 到 了 对 该 层 输 入 数据 的 编码 作 
用 ， 能 够 最 大 限度 地 保持 其 特征 。 


举 个 例子 ， 上 一 小 节 我 们 讲 了 简单 的 手写 识别 的 例子 。 从 原始 的 一 张 像素 图 片 转 换 到 
分 解 的 不 同 笔画 特征 ， 那 么 反 过 来 ， 这 几 个 笔画 特征 也 可 以 组 合成 原来 的 数字 。 这 种 
可 逆 的 转换 被 称 为 information-preserving， 即 转换 后 的 特征 保留 了 原 输入 的 特征 ， 而 
且 转 换 是 可 逆 的 。 这 正 是 pre-train 和 希望 做 到 的 ， 通 过 encoding 将 输入 转换 为 一 些 特 
征 ， 而 这 些 特征 又 可 以 复原 原 输入 xXx， 实现 information-preserving。 所 以 ，pre-training 
得 到 的 权重 初始 值 就 应 该 满足 这 样 的 information-preserving 特 性 。 


。 Weights: feature transform, i.e. encoding (OOOO 


es。 good weights: information-preserving encoding 
一 next layer same info. with different representation 
einformation-preserving: 
decode accurately after encoding 


OOOO 


bo 
力 4 IPA Dxs 





如 何在 pre-training 中 得 到 这 样 的 权重 初始 值 ( 即 转换 特征 ) 呢 ? 方法 是 建立 一 个 简单 
的 三 层 神 经 网 络 (一 个 输入 层 、 一 个 隐藏 层 、 一 个 输出 层 ) ， 如 下 图 所 示 。 


Xa 


该 神经 网 络 中 ， 输 入 层 是 原始 数据 ( 即 待 pre-training 的 数据 ) ， 经 过 权重 W 得 到 
隐藏 层 的 输出 为 原始 数据 新 的 表达 方式 〈 即 转换 特征 ) 。 这 些 转换 特征 再 经 过 权重 
Ww 得 到 输出 层 ， 输 出 层 的 结果 要 求 跟 原 始 数 据 类 似 ， 即 输入 层 和 输出 层 是 近似 相等 
的 。 整 个 网 络 是 d 一 d 一 d NNet 结 构 。 其 核心 在 于 “ 重 构 性 "， 从 输入 层 到 隐藏 层 实现 
特征 转换 ， 从 隐藏 层 到 输出 层 实 现 重 构 ， 满 足 上 文 所 说 的 information-preserving 的 特 
性 。 这 种 结构 的 神经 网 络 我 们 称 之 为 autoencoder， 输 入 层 到 隐藏 层 对 应 编码 ， 而 隐藏 
层 到 输出 层 对 应 解码 。 其 中 ，W 表示 编码 权重 ， 而 Wi 表示 解码 权重 。 整 个 过 程 
类 似 于 在 学 习 如 何 近似 通 近 identity function。 


。autoencoder: d—d—d NNet with goal g,(x) ~ x 
一 earning to approximate identity function 
(2) 


。wj ): encoding weights; w} 


: decoding weights 

那么 为 什么 要 使 用 这 样 的 结构 来 逼近 identity function， 有 什么 好 处 呢 ?” 首先 对 于 监督 
式 学 习 (supervised learning) ， 这 种 Q 一 d 一 d 的 NNet 结 构 中 含有 隐藏 层 。 隐 藏 层 
的 输出 实际 上 就 是 对 原始 数据 合理 的 特征 转换 (z) ， 例 如 手写 识别 中 隐藏 层 分 解 的 各 
个 笔画 ， 包 含 了 有 用 的 信息 。 这 样 就 可 以 从 数据 中 学 习 得 到 一 些 有 用 的 具有 代表 性 的 
言 息 。 然 后 ， 对 于 非 监 督 式 学 习 (unsupervised learning) ，autoencoder 也 可 以 用 来 
做 density estimation。 如 果 网 络 最 终 的 输出 g(x) 污 x*， 则 表示 密度 较 大 ; 如 果 g(x) 与 
x 相差 甚 远 ， 则 表示 密度 较 小 。 也 就 是 说 可 以 根据 g(x) 与 x 的 接近 程度 来 估计 测试 数据 
是 落 在 密度 较 大 的 地 方 还 是 密度 较 小 的 地 方 。 这 种 方法 同样 适用 于 outlier detection， 
异常 检测 。 这 样 就 可 以 从 数据 中 学 习 得 到 一 些 典 型 的 具有 代表 性 的 信息 ， 找 出 哪些 是 
典型 资料 ， 哪 些 不 是 典型 资料 。 所 以 说 ， 通 过 autoencoder 不 断 逼 近 identity function ， 
对 监督 式 学 习 和 非 监督 式 学 习 都 具有 深刻 的 物理 意义 和 非常 广泛 的 应 用 。 


if g(x) ~ x using some hidden structures on the observed data xn 
se for Supervised learning: 


。 hidden structure (essence) of x can be used as reasonable 
transform 中 (X) 


一 learning informative representation of data 
e for unsupervised learning: 


。 density estimation: larger (structure match) when g(x) = x 
。 Outlier detection: those x where g(x) x 


—learning ‘typical’ representation of data 


其 实 ， 对 于 autoencoder 来 说 ， 我 们 更 关心 的 是 网 络 中 间 隐 藏 层 ， 即 原始 数据 的 特征 转 
换 以 及 特征 转换 的 编码 权重 。 


Basic Autoencoder 一 般 采 用 da 一 d— d 的 NNet 结 构 ， 对 应 的 error function 是 squared 
d 
error， 即 > 1 (9gi(z) 一 Zi)2。 


basic autoencoder: 


oa 一 0 一 d NNet with error function -0 1 (g;(x) — Xi)? 


basic Su 吉 构 上 比较 简单 ， 只 有 三 层 网 络 ， 容 易 训练 和 优化 。 各 层 之 间 的 
神经 元 数量 上 ， 通 常 限定 d < d,， 便 于 数据 编码 。 数 据 集 可 表示 为 : 

{(z1,Y1 = £1), (x2,Yy2 = 22), i = 0 We 可 以 
看 成 是 非 监督 式 学 习 。 一 个 重要 的 限制 条 < 件 是 WN Ww ， 即 编码 权重 与 解码 权 
重 相同 。 这 起 到 了 regularization 的 作用 ， 但 是 是 会 让 计算 复杂 一 些 ， 


se。 backprop easily applies; shallow and easy to train 
。Usually d < d: compressed representation 


。 data: {(X1,Y1 = X1), (X2,y2 = X2),..., (XN, YN = XN)} 
—often categorized as unsupervised learning technique 


。 Sometimes constrain wft) = w(2) as regularization 
一 more sophisticated In calculating gradient 


以 上 就 是 basic autoencoder 的 结构 和 一 些 限定 条 件 。 深 度 学 习 中 ，basic autoencoder 
的 过 程 也 就 对 应 着 pre-training 的 过 程 ， 使 用 这 种 方法 ， 对 无 label 的 原始 数据 进行 编码 


和 解码 ， 得 到 的 编码 权重 全 人) 就 可 以 作为 pre-trained 的 比较 不 错 的 初始 化 权重 ， 也 就 
是 作为 深度 学 习 中 层 与 层 之 间 的 初始 化 权重 。 


basic autoencoder in basic deep learning: 
{wi taken as shallowly pre-trained weights 


我 们 在 本 节 课 第 一 部 分 就 说 了 深度 学 习 中 非常 重要 的 一 步 就 是 pre-training， 即 权重 初 
始 化 ， 而 autoencoder 可 以 作为 pre-training 的 一 个 合理 方法 。Pre-training 的 整个 过 程 
是 : 首先 ，autoencoder 会 对 深度 学 习 网 络 第 一 层 ( 即 原始 输入 ) 进行 编码 和 和 解码， 得 
到 编码 权重 W( ) ， 作 为 网 络 第 一 层 到 第 二 层 的 的 初始 化 权重 ， 然 后 再 对 网 络 第 二 层 进 
行 编码 和 解码 ， 得 到 编码 权重 Wy) ， 作为 网 络 第 二 层 到 第 三 层 的 初始 化 权重 ， 以 此 类 
推 ， 直 到 深度 学 习 网 络 中 所 有 层 与 层 之 间 都 得 到 初始 化 权重 。 值 得 注意 的 是 ， 对 于 [1 


层 的 网 络 {zt 站 }， autoencoder 中 的 qd 应 与 下 一 层 ( 即 | 层 ) 的 神经 元 个 数 相同 。 


Deep Learning with Autoencoders 


@ for (= 1,...,L, pre-train {wo} assuming wl'), ... w(!) fixed 





by training basic autoencoder on 人 with a = d(® 


@ train with backprop on pre-trained NNet to fine-tune all {wh 


当然 ， 除 了 basic autoencoder 之 外 还 有 许多 其 它 表 现 不 错 的 pre-training 方 法 。 这 些 方 
法 大 都 采用 不 同 的 结构 和 正则 化 技巧 来 得 到 不 同 的 fancier autoencoders， 这 里 不 再 


Denoising Autoencoder 


上 一 部 分 ， 我 们 使 用 autoencoder 解 决 了 deep learning 中 pre-training 的 问题 。 接 下 
来 ， 我 们 将 讨论 deep learning 中 有 什么 样 的 regularization 方 式 来 控制 模型 的 复杂 度 。 





watch out for overfitting, remember? :-) 


由 于 深度 学 习 网 络 中 神经 元 和 权重 的 个 数 非常 多 ， 相 应 的 模型 复杂 度 就 会 很 大 ， 
此 ，regularization 非 常 必 要 。 之 前 我 门 也 介绍 过 一 些 regularization 的 方法 ， 包 括 : 


。 Structural decisions/constraints 
。 Weight decay or weight elimination regularizers 


。 early stopping 


high model complexity: regularization needed 
s Structural decisions/constraints 
s Weight decay or weight elimination regularizers 
se early stopping 


下 面 我 们 将 介绍 另外 一 种 regularization 的 方式 ， 它 在 deep learning 和 autoencoder 中 
都 有 很 好 的 效果 。 


首先 我 们 来 复习 一 下 之 前 介绍 的 overfitting 产 生 的 原因 有 哪些 。 如 下 图 所 示 ， 我 们 知道 
overfitting 与 样本 数量 、 噪 声 大 小 都 有 关系 ， 数 据 量 减 少 或 者 noise 增 大 都 会 造成 
overfitting。 如 果 数 据 量 是 固定 的 ， 那 么 noise 的 影响 就 非常 大 ， 此 时 ， 实 现 
regularization 的 一 个 方法 就 是 消除 noise 的 影响 。 









Noise Level, o? 
1 


Number of Dala Poinls, N 





data Size N J overfit 个 
reasons of serious overfitting: noise 个 overfit 个 
excessive power 1 overfit 个 





去 除 noise 的 一 个 简单 方法 就 是 对 数据 进行 cleaning/pruning 的 操作 。 但 是 ， 这 种 方法 
通常 比较 麻烦 ， 费 时 费力 。 此 处 ， 有 一 种 比较 疯狂 "的 方法 ， 就 是 往 数 据 中 添加 一 些 
noise。 注 意 是 添加 noise! 下 面 我 们 来 解释 这 样 做 到 底 有 什么 作用 。 


。 direct possibility: data cleaning/pruning, remember? :-) 

。 a wild possibility: adding noise to data? 
这 种 做 法 的 idea 来 自 于 如 何 建立 一 个 健壮 (robust) 的 autoencoder。 在 autoencoder 
中 ， 编 码 解 码 后 的 输出 g(Xx) 会 非常 接近 真实 样本 值 x。 此 时 ， 如 果 对 原始 输入 加 入 一 些 
noise， 对 于 健壮 的 autoencoder， 编 码 解 码 后 的 输出 g(x) 同 样 会 与 真实 样本 值 x 很 接 
近 。 举 个 例子 ， 手 写 识 别 中 ， 通 常情 况 下 ， 写 的 很 规范 的 数字 1 经 过 autoencoder 后 能 
够 复原 为 数字 1。 如 果 原 始 图 片 数 字 1 垂 斜 或 加 入 噪声 ， 经 过 autoencoder 后 应 该 仍然 
能 够 解码 为 数字 1。 这 表明 该 autoencoder 是 robust 的 ， 一 定 程度 上 起 到 了 抗 噪声 和 
regularization 的 作用 ， 这 正 是 我 们 希望 看 到 的 。 


所 以 ， 这 就 引出 了 denoising autoencoder 的 概念 。denoising autoencoder 不 仅 能 实现 
编码 和 解码 的 功能 ， 还 能 起 到 去 噪声 、 抗 干扰 的 效果 ， 即 输入 一 些 混入 noise 的 数据 ， 
经 过 autoencoder 之 后 能 够 得 到 较 纯净 的 数据 。 这 样 ，autoencoder 的 样本 集 为 : 


{(zE1, yi = Z1 )， (将 2 ,212 = Z2 )， ” (EN, YN — ZN ) 
其 中 二 Zn 十 015e， 为 混入 噪声 的 样本 ， 而 zz 为 纯净 样本 。 


autoencoderil| 练 的 目的 就 是 让 ,经 过 编码 解码 后 能 够 复原 为 纯净 的 样本 x;,。 那 么 ， 
在 deep learning 的 pre-training 中 ， 如 果 使 用 这 种 denoising autoencoder， 不 仅 能 从 纯 
净 的 样本 中 编 解 码 得 到 纯净 的 样本 ， 还 能 从 混入 noise 的 样本 中 编 解码 得 到 纯净 的 样 


本 。 这 样 得 到 的 权重 初始 值 更 好 ， 因 为 它 具 有 更 好 的 抗 噪声 能 力 ， 即 健壮 性 好 。 实 际 
应 用 中 ，denoising autoencoder 非 常 有 用 ， 在 训 | 练 过 程 中 ， 输 入 混入 人 工 noise， 输 出 
纯净 信号 ， 让 模型 本 身 具 有 抗 噪声 的 效果 ， 让 模型 健壮 性 更 强 ， 最 关键 的 是 起 到 了 
regularization 的 作用 。 


e。 idea: robust autoencoder should not only let g(x) 一 x 
but also allow g(xX) ~ x even when x slightly different from x 


。 denoising autoencoder: 


run basic autoencoder with data 


{(X1,Y1 = X1), (X2, Yy2 = X2),..., (XN, YN = XN)}, 
where xn = xn 十 artificial noise 





一 often used instead of basic autoencoder in deep learning 
。 Useful for data/image processing: g(X) a denoised version of x 
。 effect: ‘constrain/regularize’ g towards noise-tolerant denoising 


Principal Component Analysis 


刚刚 我 们 介绍 的 autoencoder 是 非 线 性 的 ， 因 为 其 神经 网 络 模型 中 包含 了 tanh() 冰 数 。 
这 部 分 我 们 将 介绍 linear autoencoder。nonlinear autoencoder 通 常 比较 复杂 ， 多 应 用 
于 深度 学 习 中 ; 而 linear autoencoder 通 常 比较 简单 ， 我 们 熟知 的 主 成 分 分 析 
(Principal Component Analysis，PCA) ， 其 实 跟 linear autoencoder 有 很 大 的 关 
系 。 


对 于 一 个 linear autoencoder， 它 的 第 k 层 输出 不 包含 tanh() 函 数 ， 可 表示 为 : 


j=0 i=0 
其 中 ，w() 和 w 久 分别 是 编码 权重 和 解码 权重 。 而 且 ， 有 三 个 限制 条 件 ， 分 别 是 : 
。 移 除 常数 项 zo ， 让 输入 输出 维度 一 致 


。 编码 权重 与 解码 权重 一 致 : $w_ 人 {人 ^{(1)}=w_{k}^{(2)}=w_ 人 {ij} 
。d<d 


d d 
linear hypothesis for k-th component hk(x) = 》 wi (> mxj 
j=0 i=1 
consider three special conditions: 
e。 exclude xo: range of i same as range of k 
。constrain w!) = wf) = wi: regularization 
一 denote W = [w;] of size d x d 


j ii 
。 assume d < d: ensure non-trivial solution 


这 样 ， 编 码 权 重用 W 表 示 ， 维 度 是 d x d ， 解 码 权 重用 W 了 表示 。x 的 维度 为 d x 1。 则 


得 到 : 


linear autoencoder hypothesis 可 经 过 下 式 计 算得 至 
h(xz) = WW’z 


其 实 ，linear autoencoder hypothesis 就 应 该 近似 于 原始 输入 x 的 值 ， 即 h(x)=x。 根 据 
这 个 ， 我 们 可 以 写 出 它 的 error function: 


2 . 
with dg x a matrix W 














N 
1 
En(h) = En(W)= 2 | 一 WwW xn 
n=1 


我 们 的 目的 是 计算 出 iy, (h) 最 小 化 时 对 应 的 NW。 根据 线性 代数 知识 ， 首 先进 行 特 征 值 
分 解 : 

WW? = VIV? 
其 中 作 全 二 是 半 正 定 和 矩阵 。V 和 矩阵 满足 ZV7L = V2V = 克 。 工 是 对 角 和 矩 阵 ， 对 角 线 


上 有 不 超过 d 个 非 零 值 ( 即 为 1) ， 即 对 角 线 零 值 个 数 大 于 等 于 d 一 《d)。 根 据 特征 值 
分 解 的 思想 ， 我 们 可 以 把 x;, 进 行 类 似 分 解 : 


zn = VIVTz, 


其 中 ，| 是 单位 和 矩阵， 维度 为 dxd。 这 样 ， 通 过 特征 值 分 解 我 们 就 把 对 W 的 优化 问题 转 
换 成 对 工 和 V 的 优化 问题 。 


let s familiarize the problem with linear algebra (be brave! :-)) 


。eigen-decompose WWT = VTVT 
。 dxdmatrixVorthogonal:VVTI=VIV=Io 
。 dx dmatrixT diagonal with < d non-zero 
。 WWTXxn 一 VTV7TXn 
。VT(xn): change of orthonormal basis (rotate or reflect) 
es [(:..): set > d— dcomponents to 0, and scale others 
® V(:..):reconstruct by coefficients and basis (back-rotate) 


。 Xn= VIV’'Xxn: rotate and back-rotate cancel out 


首先 ， 我 们 来 优化 工 值 ， 表 达 式 如 下 : 


2 
N 


a 
min min 一 > VIVTr 一 VFV7TX， 
\ FN 1 ee 


Xn WwW Tw 





要 求 上 式 的 最 小 化 ， 可 以 转化 为 (T 一 工 ) 越 小 越 好 ， 其 结果 对 角 线 上 零 值 越 多 越 好 ， 
即 ! 与 工 越 接近 越 好 。 因 为 工 的 秩 是 小 于 等 于 qd 的 ，I 最 多 有 个 1。 所 以 ， 工 的 最 优 解 是 
其 对 角 线 上 有 ad 个 1。 


。 back-rotate not affecting length: 愉 
。 minr -||(I— 站 (some vector)||*: want many 0 within (I — fT) 
»。 optimal diagonal T with rank < df: 


{ d diagonal components 1 


IJ 0 
et } =—> Without loss of gen. | 人 | 
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那么 ， 工 的 最 优 解 已 经 得 出 ， 表 达 式 变 成 : 














< [i 
next: min VTX 
2 |。 | 
I—optimal T 


这 里 的 最 小 化 问题 似乎 有 点 复杂 ， 我 们 可 以 做 一 些 转换 ， 把 它 变 成 最 大 化 问题 求解 ， 


转换 后 的 表达 式 为 : 


N 
min 
Vy 
1 一 1 


2 








2 
I- 0 
d 了 
| 0 | vx 








0 0 r 
| 局 | ve 














当 d = 1 时 ,VT 中 只 有 第 一 行 v 有用， 最 大 化 问题 转化 为 : 
maxy >》， vl Tn ziv subjectto viv=1 


引入 拉 格 朗 日 因子 入 ， 表 达 式 的 微分 与 条 件 微分 应 该 是 平行 的 ， 且 由 入 联系 起 来 ， 即 : 


N 
> Tn Th ?1) 一 
n=1 


根据 线性 代数 的 知识 ， 很 明显 能 够 看 出 ，v 就 是 和 矩 阵 叉 了 六 的 特征 向 量 ， 而 和 就 是 相对 
应 的 特征 值 。 我 们 要 求 的 是 最 大 值 ， 所 以 最 优 解 v 就 是 矩阵 X7 尺 最 大 特征 值 对 应 的 特 
征 向 量 


当 q > 1 时 ， 求 解 方法 是 类 似 的 ， 最 优 解 {uj}4_， 就 是 矩阵 X7 X 前 & 大 的 特征 值 对 应 
的 qd 个 特征 向 量 。 
经 过 以 上 分 析 ， 我 们 得 到 了 工 和 V 的 最 优 解 。 这 就 是 linear autoencoder 的 编 解码 推导 


s。 d= 1:only firstrowv" of VT matters 
maxv y /ivTxnxTv subjecttovTrv= 1 
。optimal v satisfies 了 | xnxTv = 和 V 
一 Using Lagrange multiplier X, remember? :-) 
s optimal v: 'topmost eigenvector of XTX 
。 general d: {vi} ‘topmost’ eigenvectorS of XX 
一 optimal {w;} = {vi with [~; = 1|} = top eigenvectors 


值得 一 提 的 是 ，linear autoencoder 与 PCA 推 导 过 程 十 分 相似 。 但 有 一 点 不 同 的 是 ,一 
般 情况 下 ，PCA 会 对 原始 数据 x 进行 处 理 ， 即 减 去 其 平均 值 。 这 是 为 了 在 推导 过 程 中 的 
便利 。 这 两 种 算法 的 计算 流程 大 致 如 下 : 


Linear Autoencoder or 


@ letX = Xn, and let xn 全 Xn 一 元 
@ calculate d top eigenvectors wi,wa,...,w5 of X7X 
四 return feature transform 中 (X) = W(x—X) 


linear autoencoder 与 PCA 也 有 差别 ，PCA 是 基于 统计 学 分 析 得 到 的 。 一 般 我 们 认为 ， 
将 高 维 数据 投影 ( 降 维 ) 到 低 维 空间 中 ， 应 该 保证 数据 本 身 的 方差 越 大 越 好 ， 而 噪声 
方差 越 小 越 好 ， 而 PCA 正 是 基于 此 原理 推导 的 。linear autoencoder 与 PCA 都 可 以 用 来 
进行 数据 压缩 ， 但 是 PCA 应 用 更 加 广泛 一 些 。 


s linear autoencoder: 
maximize y (maginitude after projection) 

se principal component analysis (PCA) from statistics: 
maximize > (variance after projection) 


。 both useful for linear dimension reduction 
though PCA more popular 


以 上 关于 PCA 的 推导 基本 上 是 从 几何 的 角度 ， 而 没有 从 代数 角度 进行 详细 的 数学 推 
导 。 网 上 关于 PCA 的 资料 很 多 ， 这 里 附 上 一 篇 个 人 觉得 讲解 得 通俗 易 懂 的 PCA 原 理 介 
绍 : PCA 的 数学 原理 。 有 兴趣 的 朋友 可 以 看 一 看 。 

[个 
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本 节 课 主要 介绍 了 深度 学 习 (deep learning) 的 数学 模型 ， 也 是 上 节 课 讲 的 神经 网 络 
的 延伸 。 由 于 深度 学 习 网 络 的 复杂 性 ， 其 建 模 优化 是 比较 困难 的 。 通 常 ， 我 们 可 以 从 
pre-training 和 regularization 的 角度 来 解决 这 些 困难 。 首 先 ，autoencoder 可 以 得 到 比 
较 不 错 的 初始 化 权重 ， 起 到 pre-training 的 效果 。 然 后 ，denoising autoencoder 通 过 引 
入 人 工 噪声 ， 训 练 得 到 初始 化 权重 ， 从 而 使 模型 本 身 抗 噪声 能 力 更 强 ， 更 具有 健壮 
性 ， 起 到 了 regularization 的 效果 。 最 后 ， 我 们 介绍 了 linear autoencoder 并 从 几何 角度 
详 述 了 其 推导 过 程 。linear autoencoder 与 PCA 十 分 类 似 ， 都 可 以 用 来 进行 数据 压缩 和 
数据 降 维 处 理 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 技 法 》 课 程 


